Skip to content

【npj Digit. Med.】98.2% 准确率,100% 召回率!AI“鹰眼”攻克肺癌活检最大痛点,百万检测费有望被砍!

文章标题:Evidential deep learning-based ALK-expression screening using H&E-stained histopathological images ✉️作者:Wook Yang & Mingon Kang 等 📚期刊:npj Digital Medicine 🔗链接https://doi.org/10.1038/s41746-025-01981-9

image.png


突破:从“痛点”到“颠覆”——为何一次AI筛选价值千金?

肺癌,是全球癌症死亡率居高不下的主要原因之一 。在2023年,仅在美国就有超过12.7万人死于肺癌,占所有癌症死亡人数的20% 。幸运的是,随着靶向治疗的飞速发展,非小细胞肺癌(NSCLC)的治疗策略正发生翻天覆地的变化,其中,高效识别肿瘤的遗传变异是制定精准靶向方案的关键 。

在众多致癌驱动基因中,ALK(间变性淋巴瘤激酶)重排或过表达是重要的靶点之一 。一旦被确诊为ALK阳性,患者便可以接受FDA批准的ALK酪氨酸激酶抑制剂(TKI)治疗,例如克唑替尼和阿来替尼,这些药物相较于传统化疗,具有显著的抗癌效果和更少的副作用,能大幅延长晚期NSCLC患者的生存期 。

然而,这种精准的诊断过程目前却面临着巨大的挑战,带来了高昂的 “无效成本”

第一,患病率极低导致“无效筛查”成本高昂 。ALK重排在NSCLC中的发生率极低,仅占5%左右 。这意味着,现有基于FISH或伴随诊断(CDx)IHC的筛选测试,有95% 的患者结果是阴性的 。这95%的阴性结果所产生的额外检测费用,对患者和医保机构来说,都是巨大的不必要开支 。

第二,活检标本的“稀缺性” 。约70%的肺癌患者在确诊时已处于晚期,无法进行手术 。这意味着医生只能依赖活检或细胞学标本提供有限的组织,而这些组织需要进行多项基因和蛋白检测(如PD-L1、EGFR等) 。组织量有限,使得ALK检测必须被“高优先级”地对待 。

第三,形态学的“欺骗性” 。尽管病理学家此前已尝试根据H&E染色切片的形态特征(如实性/微乳头状/筛状生长、黏液或印戒样细胞)来识别ALK阳性 ,但单凭肉眼判断 “ALK阳性” 在H&E切片上极其困难 。现有的形态学评分系统由于性能不佳(特异性仅45%)而未被广泛采纳 。

正是在这样的背景下,深度学习成为了最有希望的解决方案:它能够从病理图像中学习人类肉眼难以可靠识别的微妙组织学特征 。

韩国学者研发的 DeepPATHO 模型,成功实现了这一目标:它能直接从常规的H&E染色切片中,以超过95%的准确率,快速、无创、低成本地筛选出ALK阳性候选者,从而将昂贵的CDx测试优先用于最有需要的患者群体 。这一突破性进展不仅有望大幅削减医疗支出,更能为晚期患者争取到宝贵的治疗时间

核心方法与技术细节解密:AI如何拥有“多焦段”的病理鹰眼?

DeepPATHO的创新之处,不仅仅在于它使用了深度学习,更在于它采用了 “循证(Evidential)” 的理念,并且在算法架构上模仿了病理学家的诊断流程:同时观察宏观(组织结构)和微观(细胞细节)

image.png

整个DeepPATHO框架是一个端到端的系统,由三个核心步骤组成 :

1. 创新骨干网络:多重放大注意力机制(MMA)

传统的深度学习模型在处理病理图像(WSI)时,通常采用“多示例学习(MIL)”框架 。它们会将一张巨大的WSI(数亿像素)分割成无数个小块(Patch),然后用一个预训练的CNN模型(如ResNet)对每个小块进行特征提取(“实例级别”分析),最后通过聚合(“幻灯片级别”预测)来判断整个WSI的阳性与否 。

然而,病理诊断的精髓在于病理学家需要在不同放大倍数下切换:低倍镜观察整体组织形态(如癌症的浸润范围和生长模式),高倍镜观察细胞核、细胞质的细节和微观结构 。

DeepPATHO 的创新之处在于其独特的多重放大注意力模块(MMA),使其拥有了“多焦段”的病理鹰眼 。

它是怎么做到的?

  • 同步输入: DeepPATHO不是单独处理不同放大倍数的图像,而是同时输入两个图像块:一个来自低倍镜(全局,如5倍),另一个来自高倍镜(局部,如20倍) 。更巧妙的是,这两个图像块拥有相同的中心点和像素尺寸(,确保了空间上的精确对应 。

  • 注意力同步: 随后,MMA模块通过复杂的自注意力机制,将低倍镜提取的 “组织水平” 形态特征和高倍镜提取的 “细胞水平” 细节特征进行同步交互学习

  • 模拟人眼: 想象一下:病理学家在20倍镜下观察到一个异常细胞,他会立刻切换到5倍镜,看看这个细胞所处的组织环境是否符合恶性肿瘤的宏观特征。DeepPATHO的MMA模块正是通过上采样(G)和下采样(L)的操作,实现低倍和高倍特征的“对话”和“对齐” 。这种机制允许模型联合学习细胞和组织结构,极大地提高了对微妙病理信号的捕获能力 。

DeepPATHO作为“实例级”的特征提取骨干模型,其性能远超传统的CNN模型。在交叉验证中,DeepPATHO的实例级AUC(0.922)比第二名的Deep-Hipo(0.807)高出14%,证明了其在捕捉特征上的卓越能力 。

2. 预测聚合:多示例学习(MIL)策略

提取出实例级特征后,模型需要通过MIL策略聚合所有图像块的预测分数,来给出最终的WSI(幻灯片级)诊断结果 。研究测试了多种MIL策略,包括:基于随机森林(RF)、后验平均(MEAN)、最大后验(MAX)、HipoMap和CAMIL 。

image.png

  • MAX策略的病理学逻辑: 值得注意的是,在随后的独立活检数据验证中,DeepPATHO耦合MAX(最大后验)策略时,获得了最佳的加权召回率(Recall) 。MAX策略本质上非常简单,它只取一张WSI中概率最高的图像块的得分作为最终的幻灯片得分 。

  • 背后的病理原理: 这种简单策略之所以有效,恰恰是因为它符合病理学的临床原则:即使一张切片中只有极少数的肿瘤细胞显示ALK阳性染色,该切片也应被诊断为ALK阳性 。MAX策略通过忽略弱信号或不相关图像块的噪声,确保了“宁可错杀、不可放过”的临床高召回率要求 。

3. 结果可信度:病理注意力图(PATHO-CAM)提供“循证”

传统深度学习模型常被称为“黑箱”,这使其在临床应用中难以获得病理学家的信任 。DeepPATHO通过引入PATHO-CAM(一种改进的Grad-CAM),提供了可信赖的诊断证据

image.png

  • 可视化证据: PATHO-CAM能够生成热力图(Heatmap),清晰地标示出哪些区域(哪些图像块)对“ALK阳性”的最终预测贡献最大 。

  • 与IHC验证一致: 研究发现,DeepPATHO生成的H&E切片热力图上的高概率区域,与同一病灶的ALK-IHC(免疫组织化学)染色图像上的ALK阳性区域(褐色染料区域)高度吻合

  • 解读形态学: PATHO-CAM的进一步分析揭示,模型关注的区域与已知的ALK相关形态学特征一致,例如筛状、乳头状或实性生长模式,以及细胞内的黏液 。这种“循证”能力,允许病理学家对AI的预测进行可靠的确认,增强了模型在临床实践中的可信度 。

数据背后的创新与颠覆性分析:为什么说这是了不起的成就?

判断一个AI模型是否具有临床应用价值,主要看两个方面:绝对性能泛化能力。DeepPATHO在多个独立且外部的数据集上,展现出了令人信服的性能和跨机构的泛化能力。

1. 绝对性能:全面超越现有模型

该研究首先使用来自韩国三星医疗中心(SMC)和庆尚国立大学医院(GNUH)的切除标本(Resection WSI)进行了模型开发和交叉验证 。

在幻灯片级别预测中,DeepPATHO耦合CAMIL取得了最佳的AUC表现(),相比第二名的Deep-Hipo耦合CAMIL(),提高了11.2% 。

然而,更具临床颠覆性的表现,体现在对活检(Biopsy)标本的独立验证上。

2. 颠覆性:活检标本的“高召回率”挑战

在临床实践中,大多数肺癌诊断依赖于活检标本 。活检标本的挑战在于其组织区域小、图像块数量少、形态特征不明显,且常伴有撕裂、压碎等采集伪影 。一个在手术切除大标本上表现良好的模型,很可能在活检小标本上“水土不服”。

研究专门使用了一组完全独立的、未用于训练的SMC活检队列进行验证,包括26例ALK阳性和66例ALK阴性腺癌 。

验证指标(独立活检队列,SMC)DeepPATHO (MAX)DeepPATHO (HipoMap)传统最佳基准模型
加权准确率 (W. Acc)98.2% 5197.1% 52
加权F1-分数 (W. F1)98.3% 5497.5% 55
召回率 (Recall)100% 5656565698.8% 5757

100% 召回率的临床意义:

  • 召回率(Recall) 代表模型找出了所有真正的阳性样本的能力,在癌症筛查中,召回率至关重要,因为 “漏诊”(假阴性,False Negative)是临床最不可接受的错误 。

  • DeepPATHO耦合MAX策略时,在活检数据集中达到了惊人的100% 召回率 。这意味着在本次独立验证中,它将所有实际的ALK阳性样本都成功预测为阳性,实现了 “零假阴性”

  • 这一性能,解决了活检组织量有限、形态学难以识别的临床痛点,确保了每个ALK阳性患者都能被高效识别并及时进入后续的靶向治疗流程。

3. 泛化能力:跨机构、跨数据类型验证

为了评估模型的通用性,研究在两个外部、独立的数据集上进行了验证:

  • 外部机构验证(CGNUH): 使用来自另一个独立机构(CGNUH)的10例混合切除和活检标本 。DeepPATHO耦合CAMIL实现了完美的分类(AUC为1) ,耦合MAX和HipoMap的准确率也达到了0.90 。

  • 公共TCGA数据集验证: 使用公开可用的TCGA-LUAD(肺腺癌)数据集(4例ALK阳性,324例ALK阴性) 。DeepPATHO耦合HipoMap实现了最高的加权准确率(0.99)和F1-分数(0.99) 。耦合MAX的召回率也高达0.99 。

在TCGA数据集中,DeepPATHO成功预测了3个ALK阳性病例,且没有假阳性(零假阳性,所有ALK阴性病例均被正确识别) 。唯一的一个假阴性(TCGA-78-7163)病例被发现具有**“广泛黏液生成”**这一罕见特征,形态学本身就具有高度挑战性 。

为什么能超越“基础模型”(Foundation Model)?

研究还与最新的病理学基础模型(如UNI2-h)进行了比较 。结果显示,即使是经过微调(Fine-tuning)的基础模型,其幻灯片级AUC()也明显低于DeepPATHO耦合CAMIL的性能() 。

这进一步证明,DeepPATHO的多重放大注意力架构,即模仿病理学家工作流、同步整合低倍和高倍信息的创新机制,是其超越通用基础模型,在ALK筛选这一特定、精细任务上取得成功的最核心原因 。

应用展望、局限性与未来路线图:从科研到临床的最后一公里

DeepPATHO模型的成功,意味着在临床病理诊断流程中,可以插入一个高精度、低成本的AI预筛选步骤

1. 潜在的临床应用前景

  • 降低检测成本: 鉴于AI筛查的准确率和召回率均超过95%,医院可以将昂贵的ALK CDx IHC或FISH测试,仅用于AI标记出的“ALK阳性候选者” 。这将大大减少针对那95% ALK阴性患者的不必要医疗开支

  • 优化活检标本利用: 在组织标本有限的晚期患者中,DeepPATHO可以优先确定ALK状态,指导治疗相关测试的优先级

  • 提高诊断效率: 快速、自动化的AI筛选,能显著提高病理科的工作效率。

  • 辅助诊断: 模型提供的PATHO-CAM热力图证据,能够帮助病理学家确认预测结果,尤其是在形态学特征不典型或诊断难度高的病例中提供额外的“第二意见” 。

2. 客观的局限性与挑战

虽然取得了显著的成就,研究也客观讨论了现有的局限性 :

  • 测试案例数量有限: 尽管模型在多个独立数据集上进行了验证,但用于外部和独立验证的病例总数仍然有限 。未来的研究需要更大规模、更广泛的跨国数据验证,以进一步确认其广泛的临床适用性 。

  • 形态学解读的定量化: 虽然PATHO-CAM可以定性地展示与ALK阳性相关的区域(如肿瘤细胞、纤维化基质等),但这种解读目前仍是定性的 。下一步需要通过更深入的形态计量学分析,对肿瘤的细胞成分和微环境进行语义分割,以实现对ALK特异性形态的定量描述

  • 假阳性问题: 在独立验证中,DeepPATHO偶尔会将具有相似形态的ROS1重排病例错误预测为ALK阳性 。这提示模型可能混淆了某些共有的形态学特征,需要进一步优化区分能力 。

3. 未来发展路线图

DeepPATHO的架构,特别是其多重放大注意力模块(MMA),具有强大的通用性 。未来的工作可以围绕以下方向展开:

  • 扩展应用范围: 将DeepPATHO应用于其他需要多倍镜协作诊断的病理学问题,例如HER2、EGFR等其他驱动基因的预测 。

  • 病理驱动的策略优化: 进一步探索像MAX这样的简单、但具有病理学基础的聚合策略,以提高模型在稀有、小样本或伪影严重数据上的鲁棒性 。

  • 形态学特征库的构建: 结合AI的可视化能力,建立一个基于H&E切片的、可信赖的ALK阳性形态学特征库,为病理医生提供更直观的参考 。

总而言之,DeepPATHO的诞生,代表着AI在精准医疗领域迈出的重要一步,以其 “98.2%的准确率”“100%的召回率”,为肺癌患者带来了一个高效、可信赖的早期筛选工具,极大地加速了“病理即基因检测”的未来。